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摘 要 : ee ee 了 很 大 的 进展 ， 然 而 基于 该 类 系统 的 自动 化 评测 依然 是 目前 亟待 解决 
的 问题 。 针 对 目前 各 类 评测 方法 需要 大 量 标注 数据 和 评测 准确 率 较 低 等 问题 ， 提 出 了 一 种 利用 长 短期 记忆 网 络 和 注 
意 力 机 制 判 别 问题 -回复 对 是 否 reer ne 模型 。 该 模型 基于 连续 的 对 话语 料 进行 建 模 ， 解 决 了 目前 基于 参考 
回复 的 评测 模型 需要 大 量 标注 数据 的 次 端 。 在 Cornell 和 Reddit 数据 集 上 ，, 该 模型 分 别 取 得 了 57.2% 和 71.8% 的 准确 
率 ， 与 现 有 的 几 种 评测 模型 相 比 准确 率 有 明显 提升 。 
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Automatic evaluation method for open domain dialogue systems 


Wang Chunliu, Yang Yonghui, Lai Huiyuan, Deng Fei 
(Institute of Computer Application, China Academy of Engineering Physics, Mianyang Sichuan 621000, China) 


Abstract: Although great progress has been made in open domain dialogue systems in recent years, automatic evaluation 
methods based on these systems are still a problem to be solved. In order to solve the problem that various evaluation 
methods need a lot of tagged data and low accuracy, this paper proposed a model for judging whether the response pair is a 
real dialogue by using the long-term and short-term memory network and attention mechanism. The model was based on 
continuous dialogue corpus, which solves the shortcomings of the current evaluation methods based on the reference 
response. On the Cornell and Reddit data sets, the accuracy of the model was 57.2% and 71.8% respectively, which was 
obviously improved compared with the existing evaluation models. 
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针对 上 述 方法 的 缺点 ,研究 学 者 在 近年 来 又 陆续 提出 了 基 


0 引言 于 深度 学 习 [ 0 和 基于 强化 学 习 03I 等 自动 化 评测 方法 。 比 较 
开放 域 对 话 系 统 由 于 其 广泛 的 应 用 受到 了 越 来 越 多 的 关 代表 性 的 方法 是 Google 的 Kanan 等 人 中 提出 的 对 抗 性 评测 方 
注 , 深度 学 习 和 强化 学 习 等 方法 的 涌现 使 得 该 领域 的 研究 在 近 ”法 ， 其 灵感 来 源 于 图 灵 测 试 ， 该 方法 利用 生成 模型 生成 回复 ， 
年 来 取得 了 很 大 的 进展 。 不 同 于 任务 型 对 话 系 统 , 开放 域 对 话 再 使 用 判别 模型 对 生成 模型 生成 的 回复 和 参考 回复 进行 区 分 ， 
系统 由 于 具有 非常 广泛 的 话题 领域 , 导致 其 回复 的 内 容 具 有 很 用 于 直观 评价 生成 模型 产生 的 回复 与 参考 回复 之 间 的 相似 程 
强 的 多 样 性 和 复杂 性 , 使 得 目前 尚未 存在 一 个 良好 的 方法 能 够 。 度 , 随 后 , Lowe 等 人 四 提出 ADEM 模型 ， ee 题 文 本 、 
实现 对 开放 域 对 话 系统 的 快速 评测 , 这 在 一 定 程度 上 阻碍 了 开 生成 回复 和 参考 回复 作为 语 料 内 容 , 以 人 工 打分 数据 作为 标签 ， 


放 域 对 话 系 统 的 长 远 发 展 。 使 用 递归 神经 网 络 模型 recursive neural network, RNN) 进 行 自 
针对 开放 域 对 话 系统 评测 的 一 个 非常 原始 的 方法 是 采用 ” 动 评 分 模型 的 训练 来 预测 生成 回复 的 评测 分 数 。 该 研究 内 容 
ATAN., 这 种 方法 虽然 评测 结果 相对 准确 但 通常 开销 巨大 ”发 表 起 引起 了 国内 外 学 者 的 广泛 关注 , 但 由 于 该 方法 需要 大 量 
非常 耗 时 , 评测 人 员 的 不 同 也 使 得 评测 结果 具有 很 强 的 主观 。 的 人 工 标 注 数据 ， 所 以 并 不 具备 很 好 的 灵活 性 和 扩展 性 。 

性 。 鉴 于 人 工 评测 方法 的 众多 缺点 , 研究 人 员 陆 续 提 出 了 各 种 为 避免 使 用 大 量 的 参考 回复 和 人 工 打 分 数据 ，Lowe 等 人 
自动 化 的 评测 方法 。 早期 的 自动 化 评测 方法 主要 包括 两 类 , 分 >%10] 提 出 使 用 无 标注 的 对 话 数据 作为 训练 语 料 ,将 长 短期 记忆 
别 为 基于 词 重 受 率 的 评测 指标 和 基于 词 向 量 的 评测 指标 让。 基 网 络 模 型 (long short-term memory，LSTM) 作 为 评测 模型 预测 
于 词 重 倒 率 的 评测 指标 以 BLUEBI、METEORW 和 ROUGED ”生成 回复 是 真实 回复 的 概率 。 该 方法 主要 针对 目前 开放 域 对 话 
为 代表 , 主要 利用 系统 的 生成 回复 与 参考 回复 之 间 的 词 重 着 率 系统 领域 训练 数据 匮乏 的 难题 , 减少 了 评测 工作 所 需 的 巨大 成 
进行 评测 。 基 于 词 向 量 的 评测 指标 是 将 系统 的 生成 回复 与 参考 AR, 其 灵感 来 自 于 语 篇 连贯 领域 的 研究 。 本 文 受 这 类 评测 方法 
可 复 表 示 成 向 量 的 曾 过 计算 余弦 距离 来 表示 两 者 之 。 ”的 启发 ， 提 出 AB-LSTM-bi-MLP 评测 模型 ， 该 模型 为 判别 模 
闻 的 相似 度 。 虽 然 这 些 评 测 指标 目前 被 工业 界 和 学 术 界 广泛 使 型 ， 主 要 基于 Bi-LSTM 网 络 模型 和 注意 力 机 制 (attention 
用 ,但 Liu 等 人 [I 通过 大 量 的 实验 证 明了 这 些 评测 指标 与 人 类 = mechanism), ， 同 时 引入 Severyn 等 人 1 提出 的 二 次 特征 
六 断 结果 的 相关 性 很 低 甚 至 没有 相关 性 , 因此 使 用 这 些 方法 进 (quadratic feature) 方 法 ,利用 多 层 感知 机 (multi-layer perceptron, 

行 的 系统 评测 并 不 具备 可 靠 性 。 MLP) 预 测 问题 一 回复 对 为 真实 对 话 的 概率 值 。 
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录用 定稿 
1 ”相关 知识 
1.1 LSTM 模型 

标准 的 递归 神经 网 络 无 法 较 好 地 处 理 长 


着 文本 序列 间隔 的 增 大 , 很 容 


这 一 问题 ，Hochreiter 等 人 [5 


Jar 


过 门 控 机 制 来 决定 对 


v=%,4,H, 


其 中 : 


距离 依赖 信息 ， 


易 出 现 梯度 消失 的 问题 。 为 解决 


在 1997 FEH 


经 网 络 LSTM， 它 在 RNN 


上 了 一 种 特殊 的 


随 


递 


的 基础 上 引入 了 门 控 机 制 ， 


通 


昌 的 元 素 总 数 ， 
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e 表示 计算 注意 力 概 率 权重 值 的 中 间 过 渡 值 ， wx、 丈 和 
b 表示 可 学 习 的 网 络 参数 ，n RRMA M 


a, X 


示 分 配 到 第 1 个 元 素 上 的 注意 力 ; 
后 的 输出 特征 向 量 。 
1.3 多 层 感知 机 


多 层 感知 机 是 一 种 前 向 结构 的 人 工 


v 表示 经 过 注意 力 机 制 处 理 


经 网 络 ， 由 输入 层 、 


} 某 个 信息 


的 记忆 或 遗忘, 使 得 模型 具有 J 


更 好 的 记忆 功能 , 更 加 适用 于 处 理 和 预测 时 间 序 列 中 间隔 和 延 


已 
述 比较 长 的 重要 事件 。 


E LSTM 的 具体 计算 公式 09 如 式 (1)~(6) 
所 示 。 
i =0(xU' +h Wi +h) (1) 
f,=0(xU! +h WS +b,) (2) 
0, =0(x,U° +h_W? +b,) (3) 
q, = tanh(x,U4 +h Ws +b,) (4) 
P= f.* Diath *q, (5) 
h, =o, *tanh(p,) (6) 
其 中 : i. fi 和 oo, 分别 代 表 LSTM 有 三 个 门 装置 ， 即 输入 门 、 


遗忘 门 和 输出 门 ， 这 三 个 门 的 输出 都 是 通过 将 当前 时 刻 t 的 输 


入 和 前 一 时 刻 1-1 的 输出 有 组合 后 再 
即 表 示 sigmoid 激活 函数 ;政和 
1 的 偏 置 值 ; 


数 得 到 ， o 


b 表示 LSTM 在 训练 过 程 中 学 习 至 
h, 则 表示 1 时 刻 根 扩 


的 记忆 单元 ; 
藏 层 。 


Bi-LSTM 网 络 模型 是 


向 的 LSTM 


一 次 反 向 传播 ,最 后 将 这 两 个 网 络 连 


既 能 够 保存 


LSTM 只 记录 上 文 信息 的 或 端 


(7)~(9) 所 示 。 


网 络 ’ H 


U 表示 权重 和 矩阵 ; 
p, RÆ LST 
输出 门 o 和 p 计算 得 来 的 


个 sigmoid 


受 双向 RNN 的 启发 , 采用 


了 两 个 


P&I 


z 


Lt, 
隐 


yi 


方 


处 理 过 程 是 在 正 向 传播 的 


上 文 信息 ， 


h, =LSTM(h 


妆 同 一 个 输出 层 。 


基础 上 


也 能 够 考虑 下 文 信息 ， 解 决 了 单 


,PELL7] 


Pry 


H, =[%:] 


1.2 注意 力 


提出 在 RNN 
Bahdanau 等 
效 


processing, N 


四 sR 2 y% 
AR IE fF 14 


将 注意 力 机 制 引 入 到 |] 六 


在 


在 认 知 科学 
而 忽略 其 他 可 见 的 信息 ， 
制 起 源 于 人 类 视 觉 领域 


主意 A ML fil 


机 制 | 


Ph， 人 类 会 选择 性 地 关注 信 


这 种 


模型 上 使 ) 
人 0103 提出 将 其 


应 


的 研究 ,， Google 
注意 力 机 利 


ym 


机 制 


[为 注意 力 机 制 。 油 
好 队 [ 


进行 
该 模型 


向 


Bi-LSTM 的 计算 公式 如 式 


(7) 


(8) 


(9) 


其 中 : H, 表示 Bi-LSTM 在 :时 刻 的 隐藏 状态 。 


ERA 


LP) 领 域 引 起 了 


在 自 名 
广泛 的 关注 ， 


然 语 言 处 


经 网 络 模型 中 来 处 


本 语义 的 抽 


相 比 于 单独 的 模型 


区 。 大 量 


能 够 更 好 地 捕 


随后 越 来 越 多 的 学 
各 种 NLP 


LF 


然 语言 处 理 领 域 , 注意 力 机 制 的 主要 作用 体现 在 对 
的 研究 成 果 说 明了 引入 注意 力 机 制 的 模 


7 在 2014 FË? 
来 对 图 像 进行 分 类 。 
用 到 机 器 翻译 任务 中 ， 其 显著 的 


息 的 一 部 分 内 容 ， 


机 


Hl (natural language 


者 


o 


X 
型 


捉 到 影响 两 


个 句子 之 间 的 


贯 性 或 关联 度 的 词语 ,注意 力 机 制 在 近年 来 已 产生 了 多 种 变 
如 加 性 注意 力 、 点 积 注 意 力 、 


Au 


e, =u* tanh(WH, +b) 


__exp(e,) 
> exp(eu) 
k=l 


注意 力 09] 等 。 本 文 所 
FE 意 力 机 制 的 计算 公式 如 式 (10) ~ (12) 所 示 . 


E) 


连 


体 > 


的 


(10) 


(11) 


隐藏 层 和 输出 层 组 成 , CHA abs BY WA 
连接 到 下 一 


connected network，FCN)， 其 作用 是 对 一 乡 


为 多 


条 
zo B} 


ce 到 


屋 ， 因 此 也 常 被 称 为 全 连接 神经 网 络 (fully 


输入 向 量 进行 非 线 


性 拟 合 得 到 一 组 输出 向 量 。 
多 层 感 知 机 的 第 一 层 表示 输入 层 , 负责 接收 信息 ,如 输入 
个 n 维 向 量 , 就 有 n 个 神经 元 。 隐藏 层 神经 元 负责 对 输入 信 
息 进行 加 工 处 理 ， 假 设 输入 层 使 用 向 量 X 来 表示 ， 则 隐藏 层 
输出 的 计算 形式 为 
Y, = (WX +h) (13) 
其 中 W 表示 权重 矩阵 4b 表示 偏 置 项 ，f0) 表示 激活 函数 。 


对 于 第 ! 层 ， 表示 该 层 的 所 用 


为 W ， 第 1 层 第 i 个 节点 到 第 1+1 


Par, 
ZB AD 


神经 元 ， 其 输出 为 了 ， 其 
中 第 ;个 节点 的 输出 为 %" 。 连 接 第 ! 层 和 第 !+1 层 的 权重 矩阵 
5 个 节点 的 权重 为 ww 。 


b 表示 第 1+1 层 的 偏 
1+1 层 第 i 个 三 点 的 偏 置 项 为 4% 。 


项 , 不 同 节点 的 


前 置 量 可 能 不 
最 简单 的 MLP 只 


样 ， 第 


包含 一 个 


隐藏 层 ， 即 三 层 结构 ， 如 图 


1 所 示 ， 甚 输入 层 所 表示 的 输入 信 


息 为 X =[%,%, Xa] 9 输出 
BN Y= [y:®, y2] o 


输入 层 L1 


慨 共 包含 两 个 # 


输出 


经 元 ， 表 示 的 输出 信 


FL 


图 1 


多 层 感 知 机 模型 


图 


Fig. 1 Multilayer perceptron model diagram 


2 ”评测 模型 设计 
本 文 
2 所 示 。 该 模型 共 包 括 1 


部 分 : 第 


提出 的 评测 模型 AB-LSTM-bi-MLP 的 整体 结构 如 图 
部 分 由 Bi-LSTM 模型 和 


注意 力 机 制 组 成 , 用 于 获取 文本 的 句子 向 量 表示 , 本 文 将 其 称 


为 句子 模型 ; 第 二 部 分 引入 了 “二 次 特征 ”方法 ， 利 


多 


知 机 预测 问题 一 回复 对 为 真实 对 话 的 概率 值 ,本文 将 这 部 分 称 


为 文本 对 匹配 模型 。 

句子 模型 可 分 为 三 
Bi-LSTM 层 、 注 意 力 机 制 处 理 层 。 
2.1 句子 模型 


E, 分 别 为 词 欣 入 层 (word embedding). 


词 嵌 入 层 也 可 以 称 为 模型 的 输入 


云 ， 


HEEE) 


是 将 文本 


处 理 成 模型 可 以 接受 的 形式 。 


其 具体 内 容 是 将 句子 > 看 做 由 词 
语 组 成 的 序列 [amas md), BES ALTE AT DAM ie 


CKV 中 提取 。 


词语 使 用 分 布 式 向 量 来 表示 ， 该 向 量 通过 在 词 嵌 入 矩阵 机 


中 查找 来 获取 ， 和 矩阵 是 


词汇 表 Y 中 所 有 词语 的 向 量 表示 


级 联 而 形成 。 为 便于 在 W 中 快速 查找 到 词语 的 向 量 表示 ， 每 
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个 词语 都 被 映射 到 一 
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个 整数 索引 上 , 索引 与 词汇 表 Y 中 位 置 对 ERRE i 行 表 示 在 句子 相应 位 置 ; 处 的 词语 的 词 嵌 入 o 


应 ,由 此 ,对 于 每 个 输入 句 s , 可 以 构建 一 个 句子 矩阵 ysR" ， 


Bi-LSTM ”注意 力 机 制 


Bi-LSTM 


获取 到 的 句子 矩阵 输入 到 网 络 中 。 如 图 


连接 层 隐藏 层 


FE 


句子 模型 文本 对 区 本 模型 
图 2 评测 模型 整体 结构 
Fig.2 Overall structure diagram of evaluation model 
层 构 建 了 双向 的 LSTM 网 络 ， 然 后 将 词 嵌入 层 其 中 : 矩阵 Me Re 表示 一 个 参数 矩阵 ， 在 训练 过 程 中 不 断 进 


半 部 分 ) 所 示 ， 


LSTM 单元 中 i 时 刻 的 输入 门 、 输 出 门 、i 


对 于 每 个 词 向 量 Xi, 通过 


3 中 Bi-LSTM 模型 (上 ” 行 优化 ， 通 常 M 被 解释 为 将 回复 内 容 映 射 到 问题 空间 的 线性 
过 式 (1)~(6) 可 以 得 到 在 。 ”投影 。 该 方法 目前 被 广泛 应 用 到 文本 相似 度 计算 中 [1。 


遗忘 门 三 个 门 的 值 和 于 在 连贯 的 句子 对 中 ,机 器 不 仅 能 够 根据 上 文 得 出 下 文 ， 


整个 单元 的 隐藏 状态 。 通 过 式 (7) 和 (8) 分 别 获取 i 时 刻 的 正 。 ”也 能 够 根据 下 文 得 到 上 文 。 因 此 ， 为 了 强调 问题 -回复 对 之 间 


= z di 4 į > ji Ay KIN AR» Rr 1 小 和 关联 程 

向 隐藏 状态 元 和 反 向 隐藏 状态 万 ， 然 后 利用 式 (9) 得 到 1 时刻 e 本 文 使 用 式 (15) 表 示 从 下 文 到 上 文 的 关联 程 
完整 的 隐藏 状态 H, KE H, (E3 Bi-LSTM 层 输出 的 特征 向 量 。 Mat(r.q)=1"Nq (15) 
注意 力 机 制 处 理 层 是 指 在 BiLLSTM 模型 的 基础 上 再 引入 通过 参数 年 阵 M 入 分 别 得 到 问题 一 回复 对 的 正 向 匹配 


注意 力 机 制 ， 


引入 后 的 模型 整体 结构 如 图 3 所 示 。 经 过 a" Mr 和 反 向 匹配 度 w"Nq ， 然 后 将 其 作为 新 的 文本 特征 与 问 


Bi-LSTM 层 


处 理 后 的 输入 集合 可 以 表示 为 ” 题 g 和 回复 r 进 行 连接 , 得 到 整个 模型 的 连接 层 , 与 此 同时 也 


五 =[Hi,H,…,Hi,.…,H,] ，H, 表示 输入 集合 


EEI 
HEH 与 权重 


JE, FUER MRE 


第 ; 个 词语 的 特征 ”可 以 选择 性 地 在 连接 层 中 加 入 附加 特征 09。 连 接 层 最 后 的 表 


EE «通过 式 (10) 和 (11) 获 得 ， 将 特征 。 示 公 式 如 式 〈16) 所 示 。 


值 a 的 乘积 作为 第 i 个 词语 的 向 量 值 v ,通过 式 X join = [qs Xma» X mars» Xjear ] (16) 


(12) 得 到 整个 输入 文本 的 输出 特征 向 量 
过 计算 注意 力 概率 分 布 来 突出 句子 中 的 关键 词语 。 择 添加 到 连接 层 的 附加 特征 。 


。 该 层 的 主要 作用 是 通 其 中 :xu 表示 Mat (q,r); X'ma 表示 Mat(4) ; Mea 表示 可 以 选 


[a] - 


将 得 到 的 连接 层 输 入 到 多 层 感 知 机 中 。 本 文 所 使 用 的 多 层 


Xn 


tad 
pN 


感知 机 模型 的 隐藏 层 设置 为 一 层 ， 激 活 函 数 使 用 ReLU， 输 出 


层 的 激活 函数 使 用 Softmax。 模 型 的 损失 函数 使 用 交叉 焙 损 失 


Ha l 函数 ， 其 定义 如 式 〈17) 所 示 。 
ee £ =~, label, log(score; ) (1 7) 


二 H; label; 表示 期 望 输 出 ; score; 表示 实际 输出 o 
模型 的 反 向 传播 使 用 自 适 应 矩 估 计 (adaptive moment 
estimation，Adam)Po 优 化 算法 。 为 防止 模型 出 现 过 拟 合 现象 ， 


= 


[Anemon] 本 文采 用 两 种 技术 ，Dropout 和 L2 正则 化 。 
图 3 引入 注意 力 机 制 的 Bi-LSTM 的 模型 图 cn A 
Fig.3 Model diagram of Bi-LSTM with attention mechanism 3 实验 本 分 析 
2.2 文本 对 匹配 模型 3.1 实验 数据 
文本 对 匹配 模型 是 图 2 所 示 的 右 侧 部 分 。 该 模型 共 包括 为 了 验证 本 文 提出 的 模型 的 有 效 性 ， 本 文选 用 两 种 常用 


三 部 分 内 容 : a) 将 问题 一 回复 对 之 间 的 匹配 度 作为 文本 对 的 二 ”的 数据 集 对 模型 进行 验证 ， 分 别 为 Cornell 数据 集 (http:// 
次 特征 ; b) 将 二 次 特征 与 文本 对 特征 向 量 进行 连接 得 到 连接 层 ， www.cs.cornell.edu/~cristian/Cornell Movie-Dialogs_Corpus.h 


0) 将 连接 层 作为 多 层 感 知 
对 话 的 概率 值 。 


使 用 上 述 


可 复 对 之 间 的 


得 到 它们 的 句子 向 量 


的 句子 模型 对 问题 文本 和 


匹配 度 。 


Mat (q,r) = gq Mr 


机 的 输入 预测 问题 一 回复 对 是 真实 tml) 和 Reddit 数据 42 (https:/Awww.kaggle.com/reddit/ 


reddit-comments-may-2015/home). Cornell 数据 集 是 由 康 奈 尔 


H 


复 文 本 进行 处 理 后 ， ”大 学 从 原始 的 电影 剧本 中 所 提取 的 对 话 集 合 , Reddit 数据 集 则 


示 9 和 7， 使 用 式 (14)20 来 计算 问题 - ”主要 由 Reddit 论坛 上 的 评论 数据 构成 。 本 文 直接 使 用 Github 


上 开源 的 Cornell 和 Reddit 两 种 数据 Æ 
(14) (https://github.com/bshao001/ChatLearner/tree/master/Data) ， 分 
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MAGA 4 万 个 问题 -回复 对 和 11 万 个 问题 -回复 对 ， 均 为 连 a) 通过 模型 简化 测试 [ablation test) 证 明了 本 文 模型 的 每 

续 的 对 话 数 据 ， 其 数据 集 样 例如 表 1 所 示 。 一 部 分 都 对 整体 的 评测 效果 起 到 一 定 的 作用 。 
表 1 数据 集 样 例 人 本 文 模型 的 评测 准确 率 优 于 Bi-LSTM-bi-MLP 模型 的 
Table 1 Dataset sample 评测 准确 度 , 证 明了 引入 注意 力 机 制 后 的 模型 能 够 更 好 地 捕捉 

问题 文本 可 复 文本 到 问题 -回复 对 之 间 的 关联 信息 。 
Daddy, people expect me to be ge QAI AB-LSTM-uni-MLP 模型 的 评测 准确 率 在 
there! í 两 种 数据 集 上 均 高 于 AB-LSTM-MLP 模型 ， 证 明了 本 文 模型 
My PSU does not have that Sorry, the switch is on another similar 所 引入 的 三 次 级 联 方 法 的 有 效 性 。 
switch. PSU from EVGA. @@ 本 文 模型 的 评测 准确 率 优 于 AB-LSTM-uni-MLP 模型 
Now you know who and what I though Freddy was just an old town 的 评测 准确 率 , 说 明了 本 文 模型 所 提出 的 双向 问题 一 回复 对 匹 
Freddy really is. Story. 配 度 计算 方法 的 可 行 性 。 

为 了 实现 对 模型 的 有 效 训 练 ， 本 文 将 Cornell 数据 集 和 本 文 模型 的 评测 准确 率 优 于 AB-LSTM-bi-SLP 模型 的 
Reddit 数据 集中 的 问题 -回复 对 标注 标签 值 1 作为 正 样本 ， 然 。 评测 准确 率 ， 验 证 了 本 文 所 使 用 的 MLP 模型 预测 概率 值 方法 
后 在 数据 集中 随机 蔡 换 回 复 文本 作为 问题 文本 的 回复 , 并 将 其 的 优越 性 。 
标注 标签 值 0 构成 模型 所 需 的 负 样本 。 通 过 这 种 负 采 样 方法 获 b) 基 于 Cornell 语 料 的 评测 准确 率 普 遍 低 于 基于 Reddit if 
取 与 正 样本 数目 相同 的 负 样本 , 最 后 这 两 种 数据 集 分 别 包 含 了 ” 料 的 评测 结果 , 其 原因 主要 与 语 料 自身 的 特点 有 关 。 该 语 料 相 
8 万 个 问题 -回复 对 和 22 万 个 问题 一 回复 对 。 对 Reddit 语 料 数据 较 少 ， 语 料 均 来 自 于 电影 对 话 ， 噪 声 非常 

从 Cornell, Reddit 两 种 数据 集中 分 别 抽取 5% 的 样本 对 作 ”大 ; 对 话 内 容 生僻 ， 不 如 Reddit 语 料 的 对 话 内 容 自然 。 这 些 


为 各 自 的 测试 集 ， 其 中 50% 为 真实 对 话 ，50% 为 虚假 对 话 。 将 ”因素 使 得 该 语 料 能 够 覆盖 的 语义 非常 有 限 , 导致 模型 很 难 对 数 
剩余 的 数据 集 分 别 按照 90% 和 10% 的 比例 分 为 训练 集 和 验证 。”” 据 进行 有 效 地 拟 合 。 
集 。 c) 本 文 的 评测 方法 在 评测 任务 中 取得 了 优 于 其 他 几 种 评 
3.2 ”模型 参数 设置 i 9 判别 准确 率 ， 但 依然 不 能 取得 非常 理想 的 评测 结果 ， 
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词 向 量 使 用 word2vec 工具 预 训练 新 闻 语 料 得 到 的 300 维 ”其 原因 包括 以 下 两 点 : 
词 向 量 ， 解 压 后 的 文件 大 小 为 3.39 GB。 对 未 出 现 的 词 进行 随 外 实验 数据 负 采 样 部 分 所 使 用 的 随机 替换 方法 虽然 避免 
机 初始 化 ， 训 练 过 程 中 词 向 量 动态 更 新 。 了 数据 标注 所 需 的 大 量 工作 , 但 能 够 覆盖 的 语义 空间 非常 有 限 ， 
Bi-LSTM 网 络 中 的 正 向 和 反 向 隐藏 层 的 节点 数 均 设置 为 导致 在 较 大 的 开放 域 中 效果 会 受到 影响 。 
300 个 ，MLP 的 隐 层 设置 为 一 层 ， 隐 层 节点 数 设置 为 1 024， 名 一 个 潜在 限制 是 负 样 本 中 的 回复 文本 是 从 数据 集中 的 
dropout 设置 为 0.5，L2 正则 化 参数 为 0.001，Adam 的 学 习 率 其 他 位 置 抽样 而 来 , 这 些 回复 文本 也 可 能 与 问题 文本 之 间 是 连 
设置 为 0.000 1， 对 于 误差 的 更 新 采用 批 处 理 形式 ，batch 值 设 。 贯 的 ， 因 此 在 一 定 程度 上 会 影响 模型 的 训练 效果 。 
置 为 128。 表 2 实验 结果 
33 ”实验 结果 与 分 析 Table 2 Experimental result 
使 用 上 述 的 两 种 数据 集 对 模型 进行 训练 ,然后 将 训练 好 的 an Cornell Reddit 
模型 分 别 对 测试 集 进行 预测 。 为 验证 模型 的 有 效 性 ,将 本 文 模 准确 率 精确 率 召回 率 FE 准确 率 精确 率 召回 率 Fl (EL 
型 AB-LSTM-bi-MLP 与 其 他 六 种 模型 进行 对 比 实验 。 这 六 种 LSTM-uni 0.2857 0.4907 0.2592 0.3365 0.3764 0.3513 0.3679 0.3587 
模型 的 结构 描述 如 下 ， 其 中 ， 模 型 名 称 中 的 “bi” 表 示 使 用 双 AB-LSTM-MLP 0.5150 0.4974 0.5162 0.5050 0.5109 0.5391 0.5095 0.5220 
向 的 问题 一 回复 匹配 度 ，“wuni” 表 示 使 用 单 向 的 问题 一 回复 AB-LSTM-bi-SLP 0.5233 0.5307 0.5232 0.5248 0.6861 0.7461 0.6645 0.7013 
匹配 度 。 GRU-uni-MLP 0.5425 0.5441 0.5434 0.5420 0.6738 0.7134 0.6615 0.6837 
Q@AB-LSTM-uni-MLP: 相对 于 本 文 模型 仅 使 用 单 向 问题 Bi-LSTM-bi-MLP 0.5445 0.5086 0.5490 0.5276 0.6554 0.6689 0.6509 0.6578 
一 回复 对 匹配 度 作 为 二 次 特征 。 AB-LSTM-uni-MLP 0.5543 0.5524 0.5805 0.5649 0.7089 0.7085 0.7080 0.7067 


@QBi-LSTM-bi-MLP: 相对 于 本 文 模型 未 引入 注意 力 机 制 。 AB-LSTM-bi-MLP 0.5722 0.5688 0.5740 0.5703 0.7182 0.7178 0.7173 0.7158 
@GRU-uni-MLP: 由 Tao 等 人 0 提出 的 无 参考 回复 评价 


模型 (unreferenced metric blended evaluation routine). 。 使 用 4 ARE 
GRU(gated recurrent unib) 模 型 对 文本 进行 编码 ， 引 入 了 单 向 的 本 文 针 对 开放 域 对 话 系统 的 自动 化 评测 提出 了 一 种 二 分 
问题 -回复 对 匹配 度 作为 二 次 特征 。 类 的 评测 模型 , 该 模型 主要 结合 长 短期 记忆 网 络 和 注意 力 机 制 ， 
@AB-LSTM-bi-SLP: 相对 于 本 文 模型 仅 使 用 单 层 感知 机 在 不 需要 使 用 参考 回复 和 人 工 打分 数据 的 条 件 下 , 相 比 于 前 人 
(Single Layer Perceptron，SLP) 进 行 概率 预测 。 提出 的 几 种 基于 参考 回复 的 评测 方法 更 加 容易 实现 , 并 且 可 以 
@AB-LSTM-MLP: 由 Bruni 等 人 (9 提出 的 评价 模型 。 使 移植 到 不 同 的 对 话 领 域 和 语言 上 , 具备 很 好 的 灵活 性 和 扩展 性 。 
用 Bi-LSTM 对 文本 进行 编码 ， 利 用 MLP 模型 预测 问题 -回复 本 文 的 主要 工作 是 基于 对 话 系 统 中 单 轮 的 对 话 数 据 进 行 
对 是 真实 对 话 的 概率 , 相对 于 本 文 模型 该 模型 未 引入 二 次 特征 评测 ， 随 着 近年 来 多 轮 对 话 系统 的 兴起 ,多 轮 对 话 系统 评测 也 
方法 。 将 是 未 来 重要 的 发 展 方向 。 今 后 的 研究 工作 将 集中 于 多 轮 对 话 
©LSTM-uni: H Lowe 等 人 外 提出 的 评价 模型 ,使 用 LSTM 中 语意 连贯 性 的 建 模 , 通过 从 对 话语 义 和 对 话 主 题 等 不 同 角 度 
模型 对 文本 进行 编码 ， 直 接 使 用 问题 -回复 对 之 间 的 匹配 度 作 对 多 轮 对 话 系 统 评测 展开 研究 , 同时 将 本 文 模型 应 用 到 多 轮 对 


为 文本 对 为 真实 对 话 的 概率 值 。 话 系 统 评测 中 ， 以 便于 进行 实验 对 比 和 模型 改进 。 
模型 的 评价 指标 选择 准确 率 (accuracy)、 精 确 率 (precision)、 会 考 文献 ; 

#4 (lA (recall)#ll F1 值 (F1 Measure)。 实 验 结果 如 表 2 Pras. 对 一 i 
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